GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍Scale AI的新软件工程基准SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过25%: GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。
Scale AI的新软件工程基准SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过25%: GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。
“看得出 Anthropic 是真急了,都开始澄清了。”有网友在看到发文解释 8 月至 9 月初陆续出现 bug 的推文后表示。“产品质量这么差。我之前不明白为什么,现在明白了。”开发者 Tim McGuire 在帖子下表示。
9 月 16 日,OpenAI 正式推出一款新模型 GPT-5-Codex ,这是一个经过微调的 GPT-5 变体,专门为其各种 AI 辅助编程工具而设计。该公司表示,新模型 GPT-5-Codex 的“思考”时间比之前的模型更加动态,完成一项编码任务所需的时间从几秒到七个小时不等。因此,它在代理编码基准测试中表现更佳。
昨天OpenAI正式发布了GPT-5-Codex,一个专门为Codex编码智能体研发的GPT-5版本。在看了全球网友实测效果后,基本结论就是可以告别Claude Code,放下Cursor,直接来拥抱Codex了!为了验证网友们的说法和GPT-5-Codex的真实能力,我们全面的测评了一下。
刚刚,Claude 发布了一个重磅更新:可以直接生成Excel和PPT了! 现在,Claude可以直接创建和编辑各种文件: Excel表格、Word文档、PPT幻灯片、PDF文件,通通不在话下。
昨晚,腾讯发了他们的CodeBuddy Code,正式也加入命令行编程Agent战场。
故事是这样的,两周前,Anthropic 上周发布一个公告:他们的工程师在后台数据中发现了一个异常账户,正在以一种不可思议的速度,7x24 小时消耗着 Claude 模型的算力。公告中提到:”有一位用户,在每月200美元的套餐中,消耗了价值 5 万美元的模型使用量。“ 这个消耗量大到,Anthropic 不得不公开发布声明调整全球用户的速率限制。
你能想象吗?一段 25 年前的 Linux 内核驱动,在现代系统上几乎不可能运行——但一位工程师用了两个晚上借助 AI 助手 Claude Code,让它重获新生。这个驱动曾经服务于老旧磁带设备,如今经过现代化改造,不仅可以在最新 Linux 上编译,还能与真实硬件顺利通信。可谓 AI 立大功!
自从 Claude code 上线 sub-agents 后,我一直对其抱很大的期待,每次做 case 都会搭建一支“AI coding 梦之队”。想象中,它们会在主 agent的协调下火力全开, 完成我超级复杂的需求。
GPT-5,一夜又成为了编码圈的顶流。AI大牛Karpathy发文狂赞,Claude Code折腾一小时没搞定的难题,GPT-5 Pro十分钟就完成了,奥特曼秒回感谢。